智能论文笔记

ParaNames: A Massively Multilingual Entity Name Corpus

Jonne Sälevä , Constantine Lignos

分类：自然语言处理 | 人工智能

2022-02-28

我们介绍了Paranames，这是一种多语言并行名称资源，由1.18亿个名称组成，涉及400种语言。为1360万个实体提供了名称，这些实体映射到标准化实体类型（每/loc/org）。使用Wikidata作为来源，我们创建了此类类型的最大资源。我们描述了我们过滤和标准化数据以提供最佳质量的方法。PANAMES对于多语言语言处理非常有用，既可以定义名称翻译/音译的任务，又可以作为任务的补充数据，例如命名实体识别和链接。我们通过训练与英文和英语的规范名称翻译的多语言模型来展示对照群的应用。我们的资源是根据https://github.com/bltlab/paranames发布的创意共享许可证（CC By 4.0）发布的。

translated by 谷歌翻译

相关文章
笔记